Telegram Group & Telegram Channel
معماری تماما MLP برای پردازش تصویر

پست امروز درباره یک معماری ساده است که همین دو روز پیش مقاله‌اش منتشر شده. این معماری برای تسک دسته‌بندی تصاویر ارائه شده و بر خلاف شبکه‌های نامداری مثل ResNet و ViT هیچ گونه کانولوشن و اتنشی درون خودش نداره و تماما از MLP تشکیل شده. خیلی خلاصه بخوایم توضیح بدیم، ابتدا مثل ViT میاد و تصویر رو به تکه (patch) هایی تقسیم می‌کنه، سپس بعد از عبور دادن این پچ‌ها از لایه‌ی امبدینگ و به دست آوردن یک وکتور برای هر یک از تکه‌ها، اونها رو از N تا لایه به اسم MixerLayer می‌گذرونه. این MixerLayer درون خودش از دو تا شبکه MLP تشکیل شده که اولیش میاد یک فیدفوروارد روی یک جنبه از تماما تصویر‌ها میزنه (در واقع یک فیچر از روی یک فیچر تمامی تکه‌ها درست می‌کنه) و دومین MLP هم میاد یک فیدفوروارد از روی فیچر‌های یک تکه درست می‌کنه (شکل پیوست شده رو اگر ببینید درکش بسیار راحته، به اون T یا Transpose ها فقط باید دقت کنید) در نهایت هم به یک شبکه رسیدند و آزمایش‌های مختلف پیش‌آزمایش و فاین تیون رو روش انجام دادند.
شبکه اش از نظر دقتی خاص و برجسته نیست و البته پرت هم نیست. نقطه مثبتش رو میشه نرخ توان عملیاتی بالاش (throughput) دونست که خیلی از شبکه‌های مثل ViT بهتره (یک دلیلش میتونه این باشه که توی ViT به خاطر وجود اتنشن با افزایش رزولشن و در نتیجه افزایش تعداد تکه‌ها و طول ورودی، میزان نیاز به حافظه به صورت توان دویی زیاد میشه ولی اینجا این اتفاق به صورت خطی رخ میده).
کلا مقاله جالبیه و خب البته سوالاتی رو هم برمی‌انگیزه که چطوری بدون سوگیری القایی (inductive bias) خاصی به این نتیجه رسیده.

مثل همیشه یانیک کیلچر هم به سرعت یک ویدئو در توضیح این مقاله بیرون داده که می‌تونید تماشا کنید:
https://www.youtube.com/watch?v=7K4Z8RqjWIk

لینک مقاله:
https://arxiv.org/abs/2105.01601v1

#read
#paper
#watch

@nlp_stuff



tg-me.com/nlp_stuff/168
Create:
Last Update:

معماری تماما MLP برای پردازش تصویر

پست امروز درباره یک معماری ساده است که همین دو روز پیش مقاله‌اش منتشر شده. این معماری برای تسک دسته‌بندی تصاویر ارائه شده و بر خلاف شبکه‌های نامداری مثل ResNet و ViT هیچ گونه کانولوشن و اتنشی درون خودش نداره و تماما از MLP تشکیل شده. خیلی خلاصه بخوایم توضیح بدیم، ابتدا مثل ViT میاد و تصویر رو به تکه (patch) هایی تقسیم می‌کنه، سپس بعد از عبور دادن این پچ‌ها از لایه‌ی امبدینگ و به دست آوردن یک وکتور برای هر یک از تکه‌ها، اونها رو از N تا لایه به اسم MixerLayer می‌گذرونه. این MixerLayer درون خودش از دو تا شبکه MLP تشکیل شده که اولیش میاد یک فیدفوروارد روی یک جنبه از تماما تصویر‌ها میزنه (در واقع یک فیچر از روی یک فیچر تمامی تکه‌ها درست می‌کنه) و دومین MLP هم میاد یک فیدفوروارد از روی فیچر‌های یک تکه درست می‌کنه (شکل پیوست شده رو اگر ببینید درکش بسیار راحته، به اون T یا Transpose ها فقط باید دقت کنید) در نهایت هم به یک شبکه رسیدند و آزمایش‌های مختلف پیش‌آزمایش و فاین تیون رو روش انجام دادند.
شبکه اش از نظر دقتی خاص و برجسته نیست و البته پرت هم نیست. نقطه مثبتش رو میشه نرخ توان عملیاتی بالاش (throughput) دونست که خیلی از شبکه‌های مثل ViT بهتره (یک دلیلش میتونه این باشه که توی ViT به خاطر وجود اتنشن با افزایش رزولشن و در نتیجه افزایش تعداد تکه‌ها و طول ورودی، میزان نیاز به حافظه به صورت توان دویی زیاد میشه ولی اینجا این اتفاق به صورت خطی رخ میده).
کلا مقاله جالبیه و خب البته سوالاتی رو هم برمی‌انگیزه که چطوری بدون سوگیری القایی (inductive bias) خاصی به این نتیجه رسیده.

مثل همیشه یانیک کیلچر هم به سرعت یک ویدئو در توضیح این مقاله بیرون داده که می‌تونید تماشا کنید:
https://www.youtube.com/watch?v=7K4Z8RqjWIk

لینک مقاله:
https://arxiv.org/abs/2105.01601v1

#read
#paper
#watch

@nlp_stuff

BY NLP stuff




Share with your friend now:
tg-me.com/nlp_stuff/168

View MORE
Open in Telegram


NLP stuff Telegram | DID YOU KNOW?

Date: |

The SSE was the first modern stock exchange to open in China, with trading commencing in 1990. It has now grown to become the largest stock exchange in Asia and the third-largest in the world by market capitalization, which stood at RMB 50.6 trillion (US$7.8 trillion) as of September 2021. Stocks (both A-shares and B-shares), bonds, funds, and derivatives are traded on the exchange. The SEE has two trading boards, the Main Board and the Science and Technology Innovation Board, the latter more commonly known as the STAR Market. The Main Board mainly hosts large, well-established Chinese companies and lists both A-shares and B-shares.

What is Telegram Possible Future Strategies?

Cryptoassets enthusiasts use this application for their trade activities, and they may make donations for this cause.If somehow Telegram do run out of money to sustain themselves they will probably introduce some features that will not hinder the rudimentary principle of Telegram but provide users with enhanced and enriched experience. This could be similar to features where characters can be customized in a game which directly do not affect the in-game strategies but add to the experience.

NLP stuff from vn


Telegram NLP stuff
FROM USA